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Procede de correspondance automatiqxie entre des 
elements graphique s et des elements phonetiques 

La presente invention concerne en general 
5 1' extraction automatique de connaissances 

linguistiques dans un corpus de transcriptions de 
chaines graphiques en des chaines phonetiques. Plus 
particulierement , elle concerne la transcription 
d' elements typographiques tels que des- caracteres 1 
10 dans une langue predeterminee en des elements 
phonetiques . 

Actuellement r chaque mot d'une langue constitue 
une chaine graphique qui est transcrite 

15 phonetiquement en une chaine de phonemes par un v. 
phoneticien. Pour tout nouveau mot a a j outer & un 
corpus d T apprentissage, le phoneticien doit 
intervenir pour transcrire phonetiquement ce nouveau S 
mot. Le corpus d 1 apprentissage ne fournit ainsi que >*.■ 

20 des transcriptions grapheme/phoneme globales. Par % 
exemple dans la transcription globale : 

"ruelle'V [rysl] , le corpus indique que globalement, 
la chaine graphique "ruelle" se traduit en chaine 
phonetique. Cependant, il n'est pas explicite que de 

25 quelque maniere, unitairement , l 1 element 

typographique "r" se retranscrit phonetiquement. La 
transcription globale n 1 indique pas egalement les 
syllabes ou graphemes composant la chaine graphique 
et les elements phonetiques composant la chaine 

30 phonetique. 

Or la connaissance de la transcription 
elementaire de chaque element typographique permet, 
par la suite, par analyse caractere par caractere de 
toute chaine graphique, de determiner une ou 

35 plusieurs chaines phonetiques associees a la chaine 
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graphique. Les transcriptions phonetiques sont utiles 
a des systemes correcteurs de fautes pour reconnaitre 
des fautes lexicales lors de la saisie de texte sur 
un clavier.. II existe done un besoin a partir d'une 
5 transcription brute d'extraire des transcriptions 
elementaires plus fines. 

L 1 invention vise a deduire automatiquement de 
transcriptions brutes de chaines graphiques, telles 

10 que mots et noms patronymiques, par exemple, en des 
chaines phonetiques, des transcriptions d 1 elements 
graphiques, telles que caracteres, en des elements 
phonetiques composant les chaines phonetiques afin de 
segmenter automatiquement toute chaine graphique en 

15 graphemes et toute chaine phonetique en phonemes. Les 
transcriptions elementaires element graphique par 
element graphique, e'est-a-dire caractere par 
caractere, facilitent ensuite la transcription 
globale automatique de toute chaine graphique 

20 supplementaire apportee au corpus des chaines 
graphiques, sur la base notamment d'une concatenation 
d f elements phonetiques correspondant de maniere 
biunivoque aux caracteres de la chaine graphique 
supplementaire . 

25 

A cette fin, un procede pour faire correspondre 
automatiquement des elements graphiques composant des 
chaines graphiques donnees a des elements phonetiques 
composant des chaines phonetiques correspondantes, 
30 est caracterise par les etapes suivantes : 

estimer des premieres probabilites de 
transcriptions elementaires des elements graphiques 
respectivement en les elements phonetiques, 

pour chaque transcription d'une chaine graphique 
35 donnee a M elements graphiques en une chaine 
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phonetique correspondante a IS! elements phonetiques, 
determiner des deuxiemes probabilites de MN deuxiemes 
transcriptions de M chaines graphiques concatenant 
successivement les M elements graphiques en N chaines 
5 phonetiques concatenant successivement les N elements 
phonetiques, en fonction chacune d 1 une premiere 
probability respective et de la plus grande de trois 
deuxidmes probabilites respectives determinees 
precedemment , et 

10 etablir un lien entre les derniers elements des 

chaines graphique et phonetique de chaque deuxi£me 
transcription et les derniers elements des chaines 
graphique et phonetique de la transcription relative 
a la plus grande des trois deuxiemes probabilites 

15 respectives afin que des liens etablis dans • une 
matrice de taille MN relative aux . deuxiemes 
probabilites constitue un chemin unique entre des 
dernier et premier couples d' elements graphique et 
phonetique de la matrice pour segmenter la chaine 

20 graphique donnee en des graphemes correspondant 
respectivement a des phonemes segmentant la chaine 
phonetique correspondante, le nombre d 1 elements 
graphiques dans un grapheme etant identique au nombre 
d r elements graphiques dans le phoneme correspondant. 

25 Selon d'autres caracteristiques de 1' invention, 

la premiere probability respective pour la 
determination d'une deuxieme probability relative a 
une deuxieme transcription d'une chaine graphique 
concatenant m Elements graphiques en une chaine 

30 phonetique concatenant n elements phonetiques, avec 1 
< m < M et l<n<N, est relative aux derniers 
elements dans la chaine graphique a m elements 
graphiques et la chaine phonetique a n elements 
phonetiques. Les trois deuxiemes probabilites 

35 respectives determinees precedemment pour la deuxieme 
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transcription de la chaine graphique a m elements 
graphiques en la chaine phonetique a n elements 
phonetiques sont de preference respectivement 
relatives a une deuxieme . transcription d'une chaine 
graphique a m-1 elements graphiques en la chaine 
phonetique a n elements phonetiques, une deuxieme 
transcription de la chaine graphique a m elements 
graphiques en une chaine phonetique a n-1 elements 
phonetiques et une deuxieme transcription de la 
chaine graphique a m-1 elements graphiques en la 
chaine phonetique a n-1 elements phonetiques. 

Par exemple, 1" invention transcrit 

phonetiquement a partir du corpus de transcriptions 
globales telles que "ruelle ,f | [ryel] les elements 
graphiques "r", "u", "e", "lie" respectivement en les 
elements phonetiques [r] , [y] , [e] , [l] . 

L' invention peut etre assimilee a une 
syllabation qui permet par analyse de decomposer une 
transcription globale en transcriptions elementaires, 
et de mettre en correspondance localement des sous- 
transcriptions grapheme/phoneme. Le decoupage en 
graphemes et phonemes initiaux et la mise en 
correspondance biunivoque de chaque element graphique 
a chaque element phonetique des phonemes decoupes est 
appelee alignement grapheme|phoneme . Selon 1" exemple 
precedent, 1' invention produit 1' alignement suivant : 
"r" "u" ,T e M "lie" 

[r] [y] [e] [1**]. 

Le symbole * designe un element phonetique muet et 
sans signification . 

D'autres caracteristiques et avantages de la 
presente invention apparaitront plus clairement a la 
lecture de la description suivante de plusieurs 
realisations preferees de l r invention, a titre 
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d'exemples non limitatifs, en reference aux dessins 
annexes correspondants dans lesquels : 

la figure 1 est un algorithme d 1 etapes 
principales du precede de correspondance automat ique 
5 selon l 1 invention; et 

- la figure 2 est un algorithme de sous-etapes 
d'une etape de determination de premieres 
probabilites individuelles incluse dans le procede de 
correspondance automatique . 

10 

Comme montre a la figure 1, le procede de 
correspondance automatique d 1 elements graphiques et 
d 1 Elements phonetiques selon 1* invention comprend des 
etapes principales El a Ell. Ces. etapes sont pour la 

15 plupart mises en ceuvre par exemple sous la forme d f un 
logiciel implements dans un ordinateur et lie 
notamment a un systeme de correction de fautes 
lexicales qui peut etre integre a un systeme de 
traitement de texte ou a un systeme d'exercice 

20 linguistique . L 1 ordinateur contient ou peut acceder a 
une base du type de celles utilisees en intelligence 
artif icielle . La base inclut un corpus C de 
transcriptions globales initiales. 

Initialement & l r etape El, les transcriptions 

25 globales (CG|CP) sont constitutes par des couples 
faisant correspondre chacun une chaine graphique CG, 
telle qu'un mot dans une langue predeterminee ou un 
nom patronymique, a une chaine phonetique CP. Ces 
transcriptions ont ete determinees et saisies par un 

30 phoneticien au moyen d'un formulaire adequat affiche 
par 1 1 ordinateur ♦ Le corpus C fait correspondre des 
chaines graphiques GC composees chacune d J un ou 
plusieurs elements typographiques (caracteres) , 
appeles ci-apres elements graphiques gi d ! un alphabet 

35 G = {gi, gi) a I elements dans la langue 
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predetermines, avec 1 < i < M, respectivement a des 
chalnes phonetiques CP composees chacune d'un ou 
plusieurs elements phonetiques pj d'un alphabet P = 
{pi, Pj) a J elements phonetiques avec 1 < j < J 

5 et I * J a priori. Toutefois, on ignore a ce stade la 
segmentation de la chaine CG en syllabes ou en 
graphemes comprenant chacun un ou plusieurs elements 
graphiques, et la segmentation de la chaine CP en 
phonemes comprenant chacun un ou plusieurs elements 

10 - phonetiques. 

Typiquement, les alphabets G et P ont une 
trentaine d 1 elements. lis presentent ainsi une 
possibility de 30 x 30 = 900 couples possibles 
d 1 element graphique et d 1 element phonetique. En 

15 pratique, le corpus C contient au moins 100.000 
transcriptions globales de chaines typographiques CG 
en chaines phonetiques CP, ce qui preserve 
l 1 invention d'erreurs grossieres dans des estimations 
de probabilites, comme on le verra ci-apres. 

20 A I'etape E2, des premieres probabilites de 

transcription elementaire P(gjjpj) pour qu'un element 
graphique gi corresponde a l f element phonetique pj 
sont a priorite estimees et enregistrees dans la base 
avec le corpus de transcriptions globales C. 

25 valeurs estimees des premieres probabilites 

sont autant que possible proches respectivement de 
valeurs de probability maximales recherchees afin que 
le procede de 1' invention operant par iterations 
converge rapidement tout en evitant de retenir des 

30 maxima locaux. 

La nature concatenative des transcriptions 
globales des chaines conduit a l'hypothese d'une 
correlation entre le rang r g des elements graphiques 
dans une chaine graphique CG et le rang r p des 

35 elements phonetiques dans la chaine phonetique 
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correspondante CP. Par exemple dans la transcription 
globale (beaujbo) , il est plus probable que l f element 
graphique b, de par sa position en debut de chaine 
CG, se traduise en element phonetique [b] plutot 
5 qu'il ne se traduise en [o] phonetique positionne en 
fin de la chaine correspondante CP. Dans cet exemple, 
la correlation des rangs rapproche les elements 
graphiques [b] et [e] de l 1 element phonetique [b] , et 
les elements graphiques [a] et [u] de 1 ' element 

10 phonetique [o] . 

L f algorithme d* estimation initiale E2 des 
premieres probabilities P(gi|pj) comprend des sous- 
etapes suivantes E21 a E27- 

A la sous-etape E21, I J nombres de. contingence . 

15 ^gip j ' respectivement associes aux transcriptions 
elementaires (gilPj) d'un element graphique de 
1' alphabet G et d ! un element phonetique de I 1 alphabet 
P sont mis a zero. Le nombre de contingence Kg^pj est 
egal a la fin de I'etape E2 au nombre de fois estime 

20 ou l f element graphique gi est retranscrit en 
1' element phonetique pj dans les diverses 
transcriptions globales de chaines typographiques CG 
en chaines phonetiques CP incluses dans le corpus C. 

Pour chaque transcription de chaine (CG|CP) , 

25 comme indique a la sous-etape E22, les rangs des 
elements graphiques dans la chaine CG et les rangs 
des elements phonetiques dans la chaine CP sont 
normalises en fonction des longueurs respectives lg 
et l p des chaines CG et CP qui peuvent etre 

30 differentes. A la sous-etape E23, le rang r d'un 
element phonetique dans la chaine CP est deduit du 
rang r g i d'un element graphique g^ dans la chaine CG 
auquel sera associe 1* element phonetique de rang r, 
selon la relation suivante : 

35 r = partie entiere (r g i.l p /lg). 
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Le nombre de contingences Kgipj associe a la 
transcription elementaire cle 1' element graphique g^ 
en 1' element phonetique pj n'est alors incremente de 
1 que si 1' element phonetique pj est situe .au rang 
deduit r dans la chaine CP, comme indique aux sous- 
etapes E24 et E25. 

Les sous-etape E22 a E25 son reiterees pour 

chaque transcription globale (CG|CP) du corpus C, 

comme indiqu<§ a la sous-etape E26. Lorsque toutes les 

transcriptions globales du corpus ont ete parcourues, 

la sous-etape suivante 26 estime toutes les premieres 

probabilites P(gi|pj) de transcription elementaire 

entre les elements graphiques et les elements 

phonetiques, selon les relations suivantes pour 

chaque element graphique g± : 

j = J 

P(9i|Pj) = Kgipj / Z K gi pj 

j = l 

apres avoir calcule le terme somme au denominateur 
pour 1 ! element graphique gi . 

En revenant a la figure 1, le procede de 
correspondance est poursuivi par des etapes E3 a E10 
qui segmentent chaque chaine graphique CG dans le 
corpus afin de faire correspondre d 1 une maniere 
biunivoque chaque segment de la chaine CG, appele 
grapheme, comprenant un ou plusieurs elements 
graphiques a un segment, appele phoneme, comprenant 
un ou plusieurs elements phonetiques resultant d'une 
segmentation de la chaine phonetique correspondante 
CP. 

Une chaine graphique CG comprend M elements 
graphiques consecutifs gi a gjyj et la chaine 
phonetique CP correspondant a la chaine CG comprend N 
elements phonetiques consecutifs pi a p^ avec 
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l'entier N different, ou eventuellement egal a 
l'entier M. 

La probabilite P(gi, - - .g m , * . .gMlPl' "• • -Pn^ • • -Pn) 
pour que la chaine CG corresponde a la chalne CP, 
avec 1 < m < M et 1 < n < N, est determinee en 
fonction des premieres probabilites de transcription 
elementaire P (gjjpj ) estimees precedemment a 1 ' etape 
E2, et d'une similarite entre les chaines CG et CP. 
La similarite est basee sur la distance d' edition de 
Damerau-Levenshtein DLM ( Damerau-Le venshtein Metric), 
mais en effectuant une maximalisation et non une 
minimisation. La probabilite P(CG|CP) est determinee 
par une programmation dynamique, en utilisant la 
formule d' iteration suivante pour tout couple m,n tel 
que l<n<Netl<m<M: 
P(9192- - -gmlPlP2- • -Pn)=P(gmiPn)^ x [P(gig2- • .9m-llPlP2- - Pn) 

P(gi92- • -gmlPlP2- • -Pn-l) / P(gi92- • -gm-llPlP2- • -Pn-l) J • 
La nature concatenative des transcriptions 

globales de chaines et des transcriptions 
graphemes /phonemes permet d'appliquer de maniere 
efficace les modeles de Markov. Pour la probabilite 
donnee d'une transcription d'une chaine gi,g2--*gm © n 
une chaine PiP2---Pn/ l 1 extension de la chaine 
graphique, respect ivement phonetique, par un nouvel 
element graphique gm+1/ respectivement Pn+l/ donne 
lieu soit a la meme chaine phonetique, respectivement 
graphique, soit a l'adjonction d'un nouvel element 
phonetique, respectivement graphique. Exprime en 
terme de probabilite, P (gig2 • gm+llPlP2 • ■ • Pn+1 ) ne 
depend que des probabilites de trois transcriptions 
possibles : 

soit P(gig2- - -gmlPlP2- • -Pn+l) 

soit P (gig2- • -gm+l|PlP2- • -Pn) 

soit P(gig2- • -gmlPlP2- • -Pn) • 
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Cette dependance est exprimee par la distance 
d f edition egale a la plus grande des trois 
probabilites indiquee ci-dessus. 

Apres avoir .mis les indices m et n a zero pour 
une transcription globale (CG|CP) a I'etape E3 et 
incremente les indices m et n de 1 aux etapes E4 et 
E5, des iterations commencent aux etapes E6 et E7 en 
determinant les probabilites pour que les M 
concatenations successives des elements graphiques gi 
a g M de la chaine CG correspondent au premier element 
phonetique px de la chaine CP, soit : 

P(gi, * ■ .gmlPi) = P(gmlPl) maxtPtgi, . . .g m -i|pi) ] 
avec 1 m < M, en commengant par la probability 
elementaire P(gi|pi). Puis come illustre par I'etape 
E8, le precede est poursuivi par des iterations pour 
determiner les probabilites pour que les M 
concatenations des elements graphiques g x a g M de la 
chaine CG correspondent aux deux premiers elements 
phonetiques Pl et p 2 de la chaine CP, en utilisant 
les probabilites precedemment determinees pour le 
premier element graphique pi, soit : 
P(gi/ - - -gmlPl/ P2) - P(gmlP2) max[P(gi/ . . .g m -l|P2>/ 

P(gii • . .g m |Pi) / P(gi / . - .g m -i|pi) 1 . 

Puis le procede est poursuivi en ajoutant un 
element phonetique p n pour determiner les M 
probabilites P(gi|pi, . . . Pn ) a P( gi , . . .,g M | Pl/ . . . Pn ) 
jusqu f aux M probabilites relatives a la chaine CP = 
(Plr...PN>- Les etapes iteratives E4 a E8 
construisent progressivement une matrice de deuxiemes 
probabilites P ( gi/ . . . g m | Pl/ # . . Pn ) a M colonnes pour 
concatenations successives des M elements graphiques 
et a N lignes pour concatenations successives des N 
elements phonetiques, en operant ligne par ligne 
selon I'exemple ci-dessus et en commengant par la 
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probabilite P(gilPi) et en finissant par la 
probabilite P(gi, . - -gMlPl' • • -Pn) • 

Chaque iteration relative a la (m.n)ieme 
transcription [ (gi, . . . g m ) | (Pi, . . .p n ) 1 etablit un lien 

5 entre le couple (g m/ p n ) et le couple a la plus grande 
probabilite des trois probabilites determinees 
precedemment parmi les trois couples (gm-l/Pn)/ 
(gmrPn-l) et (gm-l/Pn-l) • Lorsque le couple (g m ,p n ) 
est relie au couple (gm-l/Pm)/ 11 s'agit d ! une 

10 transcription elementaire de (gm-l/Qm) en 9m 

lorsque le couple (g m ,p n ) est relie au couple (g m ,p n - 
l) , il s f agit d'une transcription elementaire de g m 
en (Pn-l/Pn) t et lorsque le couple (g m /Pn) est relie 
au couple (g m -i , p n -l) t H s 1 agit d'une transcription 

15 elementaire de g m en p n . 

Ainsi a chaque determination de probabilite 
P(gir - • -gm)|(Pl/ • • -Pn) est memorise un lien qui trace 
un chemin unique reliant le premier couple (gi, pi) 
au dernier couple -(gM> Pn) dans la matrice a M 

20 colonnes et N lignes. La topologie du chemin unique 
dans la matrice de taille M.N segmente les chaines 
graphiques CG en graphemes et les chaines phonetiques 
CP en phonemes et aligne les elements graphiques et 
les elements phonetiques en correspondance 

25 biunivoque. Si un segment du chemin suit une portion 
d'une ligne entre deux elements graphiques, la 
concatenation des elements graphiques de la portion 
de ligne correspond a 1' element phonetique de la 
ligne complete par un ou des elements phonetiques 

30 muets et sans signification afin de former un couple 
de grapheme et de phoneme ayant le meme nombre 
d ■ elements. Si un segment du chemin suit une portion 
de colonne entre deux elements phonetiques, l 1 element 
graphique de la colonne complete par un ou des 

35 elements graphiques sans signification correspond a 
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la concatenation des elements phonetiques de la 
portion de colonne afin de former un couple de 
grapheme et de phoneme ayant le me me nombre 
d 1 elements. Un changement de direction du chemin vers 
1 ' horizontale, la verticale ou la diagonale dans la 
matrice indique une segmentation des chaines CG et 
CP. 

A titre d'exemple simple, on cherche a segmenter 
la transcription globale du mot CG = "beau" en la 
chaine phonetique CP = [bo] en supposant que 1'etape 
E2 a estime les premieres probabilites individuelles 
suivantes dans le corpus C : 

P(b|b)=0,9 ; P (e|b)=0,l ; p( a jb)=0,l ; P(u|b)=0,l 
P(e|o)=0,2 ; P(a|o)=0,l ; P( u |o)=0,2 ; p(b|o)=0,l. 

Pour la transcription (beau|bo) du corpus, les 
M=4 iterations des etapes E5, E6 et E7 pour chacune 
des M=2 lignes de la matrice de taille (4,2) 
produisent le tableau suivant : 



Pn / g m 


b = g1 


e = 9p. 


a = 9l 


u = g 4 


[b] = P1 


0,9 


<~0,09 


<r0,09 


<~0, 0009 


[o] = p, 


^0,09 


ATO, 18 


<-0, 018 


f 0, 0036 



Le symbole <r indique que le couple (g, 



est relie au couple (g m _ 1# p n ) ; le symbole T> indique 
que le couple (g m , p n ) est relie au couple (g m , p n _ 
; et le symbole K indique que le couple (g m , p n ) 
est relie au couple (g m _ lt p n _ x ) . Le symbole 
associe a la transcription (be|bo) indique que cette 
derniere est deduite et done liee a la transcription 
(b|b) qui la precede. Le symbole AT indique une 
frontiere de segmentation. On en deduit de ce tableau 
1 1 alignement suivant : 
b eau 
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Le symbole * designe un element phonetique muet et 
sans signification . 

Afin de parfaire les correspondances entre les 
5 graphemes et les phonemes et les correspondances 
entre les elements graphiques et les elements 
phonetiques, de preference comme indique par 1' etape 
Ell, les premieres probabilites P(gi|Pi) a (P(gi|Pj) 
des transcriptions de chacun des elements graphiques 

10 respectivement en les J elements phonetiques (etape 
E2) et en particulier les nombres de contingence 
Kgipi a K gIp j (sous-etape E25) sont a nouveau estimes 
en fonction notamment des rangs des elements 
phonetiques places dans les chaines phonetiques 

15 donnees CG qui ont ete segmentees en phonemes a 
1* etape precedente E10. A nouveau des deuxiemes 
probabilites P (gi, . . . g m |Pl/ • • -Pn) de MN deuxiemes 
transcriptions de chaque transcription globale d'une 
chaine graphique donnee a M elements graphiques (CG) 

20 en une chaine phonetique correspondante (CP) a N 
elements phonetiques sont determinees par 1' execution 
des etapes E3 a E10 afin qu'a 1 1 etape suivante E10 
des liens soient etablis entre des couples (g mr p n ) 
d'une nouvelle matrice a M colonnes et N lignes et 

25 par consequent un chemin corrige reliant le dernier 
couple (gM/Pw) au premier couple (gi,Pi) dans la 
nouvelle matrice de deuxiemes probabilites de taille 
MN. 

Eventuellement d'aatres boucles iteratives 
30 d' etapes E2 a Ell peuvent etre executees jusqu ! a la 
convergence du procede de correspondance, c'est-a- 
dire jusqu'a ce que le chemin etabli devienne 
constant d'une boucle a la suivante. 

Apres la segmentation de toutes les chaines 
35 graphiques et phonetiques du corpus G en graphemes et 
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phonemes, la base a enregistree toutes les 
correspondances entre les elements graphiques et 
phonetiques et les correspondances entre les 
graphemes et phonemes pour tout le corpus C parcouru. 

Toute nouvelle chaine graphique ajoutee au 
corpus peut etre ensuite automatiquement transcrite 
en une chaine phonetique segmentee en des phonemes a 
laide notamment des correspondances precedemment 
etablies et enregistrees selon l 1 invention. 
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REVENDI CAT IONS 

1 - Precede pour f aire correspondre 
automatiquement des elements graphiques {g±) 
5 composant des chaines graphiques donnees a des 
elements phonetiques (pj) composant des chaines 
phonetiques correspondantes, caracterise par les 
etapes suivantes : 

estimer (E2) des premieres probabilites 
10 (P(9ilPj)) de transcriptions elementaires des 
elements graphiques respectivement en les elements 
phonetiques , 

pour chaque transcription d'une chaine graphique 
donnee (CG) a M elements graphiques en une chaine 

15 phonetique correspondante (CP) a N elements 
phonetiques r determiner (E3 - E9) des deuxiemes 
probabilites (P (gi, . . .g m |pi, • . .p n ) ) de MN deuxiemes 
transcriptions de M chaines graphiques concatenant 
successivement les M elements graphiques en N chaines 

20 phonetiques concatenant successivement les N elements 
phonetiques , en fonction chacune d'une premiere 
probability respective et de la plus grande de trois 
deuxiemes probabilites respectives determinees 
precedemment , et 

25 <§tablir (E10) un lien entre les derniers 

elements (gnuPn) des chaines graphique et phonetique 
de chaque deuxieme transcription et les derniers 
elements des chaines graphique et phonetique de la 
transcription relative a la plus grande des trois 

30 deuxiemes probabilites respectives afin que des liens 
etablis dans une matrice de taille MN relative aux 
deuxiemes probabilites constitue un chemin unique 
entre des dernier et premier couples d' elements 
graphique et phonetique de la matrice pour segmenter 

35 la chaine graphique donnee en des graphemes 
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REVINDICATIONS 

1 - Procede mis en oeuvre dans un ordinateur 
pouir fa ire correspondre automatiquement des elements 
graphiques (gi) composant des chaines graphiques 
donnees a des elements phonetiques ' (p j ) composant. des 
chaines phonetiques correspondantes, apres avoir 
saisi (El) initialement des transcriptions globales 
(CG|CP) des chaines graphiques en les chaines 
phonetiques dans une base accessible par 
1' ordinateur, caracterise par les etapes suivantes : 

estimer et enregistrer dans la base (E2) des 
premieres probabilites (P(gi|pj)) de transcriptions 
elementaires des elements graphiques respect ivement 
en les elements phonetiques, 

pour chaque transcription d'une chaine graphique 
donnee (CG) a M elements graphiques en une chaine 
phonetique correspondante (CP) a N elements 
phonetiques, determiner (E3 - E9) des deuxiemes 
probabilites (P ( gi , . . . g m | Pl , . . . Pn ) ) de MN deuxiemes 
transcriptions de M chaines graphiques concatenant 
successivement les M elements graphiques en N chaines 
phonetiques concatenant successivement les N elements 
phonetiques, en fonction chacune d'une premiere 
probability respective et de la plus grande de trois 
deuxiemes probabilites respectives determinees 
precedemment, et 

etablir et memoriser (E10) un lien entre les 
derniers elements (g m ,p n ) des chaines graphique et 
phonetique de chaque deuxieme transcription et les 
derniers elements des chaines graphique et phonetique 
de la transcription relative a la plus grande des 
trois deuxiemes probabilites respectives afin que. des 
liens etablis dans une matrice de taille MN relative 
aux deuxiemes probabilites constitue un chemin unique 
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correspondant respectivement £ des phonemes 
segmentant la chaine phonetique correspondante, le 
nombre d 1 elements graphiques dans un grapheme etant 
identique au nombre d' elements graphiques dans le 
5 phoneme correspondant. 

2 - Procede conforme a la revendicat ion 1, selon 
lequel la premiere probability respective pour la 
determination (E3 - E9) d'une deuxieme probability 

10 (P(gir - • .gmlPl/ • - -Pn) ) relative a une deuxieme 
transcription d'une chaine graphique concatenant m 
elements graphiques en une chaine phonetique 
concatenant n elements phonetiques, avec 1 < m < M et 
1 < n < N, est relative aux derniers elements dans la 

15 chaine graphique a m elements graphiques et la chaine 
phonetique a n elements phonetiques* 

3 - Procede conforme a la revendication 1 ou 2, 
selon lequel les trois deuxiemes probabilites 

20 respectives determinees precedemment pour la deuxieme 
transcription de la chaine graphique a m Elements 
graphiques en la chaine phonetique a n elements 
phonetiques sont respectivement relatives a une 
deuxieme transcription d f une chaine graphique a m-1 

25 elements graphiques en la chaine phonetique a n 
elements phonetiques, une deuxieme transcription de 
la chaine graphique a m elements graphiques en une 
chaine phonetique a n-1 elements phonetiques et une 
deuxieme transcription de la chaine graphique a m-1 

30 elements graphiques en la chaine phonetique a n-1 
elements phonetiques . 

4 - Procede conforme a l'une quelconque des 
revendications 1 a 3, comprenant une estimation 

35 d'autres premieres probabilites (P(gil^j)) de 
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entre des dernier et premier couples d» elements 
graphique et phonetique de la matrice pour segmenter 
la chaine graphique donnee en des graphemes 
correspondant respectivement a des phonemes 
segmentant la chaine phonetique correspondante et 
pour enregistrer les correspondances entre les 
graphemes et phonemes dans la base, le nombre 
d* elements graphiques dans un grapheme etant 
identique au nombre d' elements phonetiques dans le 
phoneme correspondant, afin que toute nouvelle chaine 
graphique soit automatiquement transcrite en une 
chaine phonetique segmentee en phonemes au moyen des 
correspondances enregistrees . 

2 - Procede conforme a la revendication 1, selon 
lequel la premiere probability respective pour la 
determination (E3 - E9) d'une deuxieme probability 
(P (gi/ . . . g m |pi, . . .p n ) ) relative £ une deuxieme 
transcription d'une chaine graphique concatenant m 
elements graphiques en une chaine phonetique 
concatenant n elements phonetiques, avec 1 <: m M et 
1 < n < N, est relative aux derniers elements dans la 
chaine graphique a m elements graphiques et la chaine 
phonetique & n elements phonetiques. 

3 - Procede conforme a la revendication 1 ou 2, 
selon lequel les • trois deuxiemes probabilites 
respectives determinees precedemment pour la deuxieme 
transcription de la chaine graphique a m elements 
graphiques en la chaine phonetique a n elements 
phonetiques sont respectivement relatives a une 
deuxieme transcription d'une chaine graphique a m-1 
elements graphiques en la chaine .phonetique a n 
elements phonetiques, une deuxieme transcription de 
la chaine graphique a m elements graphiques en une 
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transcriptions de chacun des elements graphiques 
res p ec tivement en les elements phonetiques en 
fonction notamment des rangs des elements phonetiques 
places dans les chaines phonetiques donnees (CG) qui 
5 ont ete segmentees en phonemes afin a nouveau de 
determiner (E6) des deuxiemes probabilites 
(P (gi, . . .g m |pi, . . .p n ) ) de MN deuxiemes transcriptions 
de chaque transcription d'une chaine graphique donnee 
a M elements graphiques (CG) en une chaine phonetique 
10 correspondante (CP) a N elements phonetiques et 
etablir un chemin corrige reliant le dernier couple 
(<3M'Pn) au premier couple (gi,Pl) dans une nouvelle 
matrice de deuxiemes probabilites de taille MN . 
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chalne phonetique a n-1 elements phonetiques et une 
deuxieme transcription de. la chaine graphique a m-1 
elements graphiques en la chaine phonetique a n-1 
elements phonetiques. 

5 

4 - Procede conforme a l'uhe quelconque des 
revendications 1 a 3, comprenant une estimation 
d'autres premieres probabilites (P(gj.|Pj)) de 
transcriptions de chacun des elements graphiques 
10 respectivement en les elements phonetiques en 
fonction notamment des rangs des elements phonetiques 
places dans les chaines phonetiques donnees (CG) qui 
ont ete segmentees en phonemes afin a nouveau de 
determiner (E6) des deuxiemes probabilites 
15 (P(gi, . . -g m |pi, . . .p n ) ) de MN deuxiemes transcriptions 
de chaque transcription d'une chaine graphique donnee 
a M elements graphiques (CG) en une chaine phonetique 
correspondante (CP) a N elements phonetiques et 
etablir un chemin corrige reliant le dernier couple 
(gM/PN) au premier couple (gi,pi) dans une nouvelle 
matrice de deuxiemes probabilites de taille MN. 
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1/2 



E1 



Constituer C avec des (CG|CP) 



FIG. 1 



E2 



Estimer PCg^Pj) pour 
g, 6 G{g v ... g,} et Pj e P{p v ... Pj} (FIG.2) 



E3 



V (CG|CP) = «g v ... g m> ... g M )|(Pv - P n -- Pn» : 
M = 0, n = 0 



E4 £ 

^ — | n = n+ 1 | 



E5 ± 

^ — | m s m + 1 | 



E6 ' 1 

r 

\ > 


r 


Determiner : P(g v ... gJPi — P n > = 
p (9mlP n ) max[P(g v - gm-llPi' " Pn>- P <9v- 9 m lPl— • Pn-l>> P( 9l — Sin-iNi— P n-1>5 


E7 ^ 


r 




non 



non 



non 



E10 



oui 



1 

Etablir un che 
deduire I'alignement de 


* 

min unique et 

s 9 m et Pn dans ( CG I CP > 




t 


/ Estimer les K gipj . 

\ pour les rangs reels des pj dans les CP ? 



E11 



non 



2/2 
FIG. 2 




K gjpj =0 pour 



g, e G{g v ... g,}etPj e P{p v ... Pj} 



E22 



V (CGJCP) 



E23 



r=partie entire (r gj .l p /l g ) 



E24 




non 



E2 U 



QUI 



E26 



K 9 1pj= 


K 9i P J +1 


> 


< 


f 


Toutes les (CG|CP) \ 
parcourues dans C ? / 



QUI 



Determiner 
P(9,|Pj) = K g|pj /^K gip . Vg,et V Pj 
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